DCASE 2024の上位を見て方法を知る
from 卒論におけるSEDの工夫を考える
DCASE 2024の上位を見て,方法を知る
モデルのアーキテクチャ
CRNN + Transformerが基本
事前学習済みモデルとしてTransformerを利用
TransformerとCNNから得られた特徴量を結合し,RNNに入力する
利用モデル
* CRNNについて調査が必要
事前学習済みTransformer
ATST/PaSST/BEATs
CNN
要調査
RNN
biGRU
LSTMは使わない?
VGGSKやFDYCRNN,Conformer
各モジュールの役割
Transformerでグローバルを,CNNでローカルな特徴を取り,RNNで全体の時間的な変化を取る
事前学習済みモデルはグローバルな特徴抽出に優れる
CRNNはよりローカルで細かい特徴抽出が可能
! 各モジュールの役割を理解する: もう少し細かい理解が必要.特にTransformerをなぜ音の解析に使うか
リソースまとめ
ベースライン
DCASE 2024 TASK 4: SOUND EVENT DETECTION WITH HETEROGENEOUS DATA AND MISSING LABELS
上位の報告書
x 01: Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training
> 02: SELF TRAINING AND ENSEMBLING FREQUENCY DEPENDENT NETWORKS WITH COARSE PREDICTION POOLING AND SOUND EVENT BOUNDING BOXES
2節を読む > 後で良い. 系統が全く異なっている
x 03: LOCAL AND GLOBAL FEATURES FUSION FOR SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS
x 03-2: SOUND EVENT DETECTION BASED ON AUXILIARY DECODER AND MAXIMUM PROBABILITY AGGREGATION FOR DCASE CHALLENGE 2024 TASK 4
x 04: SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS FOR DCASE 2024 TASK 4
x 04-2: SOUND EVENT DETECTION ENHANCED BY SCENE INFORMATION FOR DCASE CHALLENGE 2024 TASK4
x 05: TECHNICAL REPORT ON LEE SUBMISSION: SOUND EVENT DETECTION USING CONFORMER AND ATST FRAMEWORK FOR DCASE CHALLENGE 2024 TASK 4
報告書の所感
ベースラインが相当優秀
ほとんど全ての報告書が,ベースラインの構造をあまり崩していない
e ベースラインの追試をまず行った方が良いと思う
同様の学習手法で他のモデルの精度を確認する方針がいいのでは
! CRNNのリソースを読む